回顾问过Jimmy的8个问题
跟南医大的同学互动历程,从他的本科到硕士,我也从工作到博士了,很神奇,现在考虑吸纳他进入生信技能树VIP团队,下面是他整理的我们之间的互动,诸位觉得可以加入的,就点个好看表示支持,20个即可!
回顾问过Jimmy的8个问题,有点感慨。
一来,光阴似箭,一年多了,当初被疑问纠结着时的抓狂还是历历如新。
再者,现在回顾起来,前5个问题都是不知所问,甚至连自己要问什么都没说清楚。
真的很抱歉。
以下是按照时间先后,记录了我不同学习状态的8个问题。
其中得到的建议为Jimmy你给我的核心回复。
补充是我之后对问题的理解补充。
Q1: 关于果蝇参考基因组下载的请教
原始问题:
参考基因组里面不应该是是每条染色体都有一条序列记录, 然后加上unplace 和 unlocal序列的吗?为什么在NCBI里下载的fasta序列里同一条染色体会有多个>NC >NW..., 而ensembl 里需要单独把每条染色体下下来呢?
哪种得到的才是真正的参考序列?
第一个问题其实就是:我下载对了吗。到底哪个是我要下的呢?
得到的建议:
对人类来说,除了1~22,X,Y,M之外,还有一堆contig序列。算起来就有93条序列了。
我想,对果蝇来说也是如此吧,除了正常的染色体,其余的小序列也很正常,毕竟测序组装是不完美的。
如果对你后续研究没什么影响,就忽略掉。 —— Jimmy
补充:
NCBI 提供的参考基因组是 FASTA format of the genomic sequence(s) in the assembly.
所以打开一看全都是 NCBI RefSeq ID 对应的一条一条的fasta,如: NW_001846822
ensembl的是 chromosome level 的数据,所以看起来就是每条染色体只有长长的一条fasta。
所以下FTP前,不清楚数据内容先看 READ.ME ! 下载后再检查md5sum 。
另外,对于新人,如果对你后续研究没什么影响,就忽略掉. 这句话是真的很重要。减轻了不少前期入门的压力。
Q2: CCDS 和 GFF 中的外显子坐标存在差异吗?
原始问题:
LINC00115 这个基因,在GFF 注释文件和CCDS里起始终止坐标差异很大
现在回想这个问题真的很让人不知道如何回答。
当时问这个问题,的确是连CCDS是什么都没搞懂。
首先;作为long intergenic noncoding RNA,LINC00115是没有CDS的,在CCDS文件里也标记了 Withdrawn 。
其次;不同的注释来源是会存在差别的,所以才有了CCDS项目整合这么多注释来源里大家一致的、高质量的CDS区域:
The CCDS tries to identify annotations of protein-coding regions in the human and mouse genomes that are consensual across several groups/institutes.
Q3: MutSig 软件的参考组序列可以换成hg38版本的吗?
原始问题:
想用MutSigCV来找出显著的突变基因, MutSigCV只提供hg18/19的版本文件下载。
有什么方法可以把38版本的基因组转成MutSig可用的形式呢?
当时要用mutsigCV找显著突变,但是突变数据是对应hg38版本的,mutsigCV只支持hg18/19。
得到的建议:
第一种是去下载hg19的maf,第二种是进行坐标转换。
补充:
最后是重新下了hg19版本的maf,而不用做坐标转换,因为TCGA刚好提供了两类版本的数据。
mutsig 除了需要ref genome外,还依赖其他文件,所以只换hg38版本的ref genome其实是不行的。
Q4: TCGA数据中肿瘤样本和正常样本数量一定是对等的吗?
得到的建议:
得到了很接地气的回答。
不需要浪费那么多钱把每个人的正常对照测一次!!
Q5: 关于MAF突变文件里基因的突变类型(数量的问题)
原始问题:
我查看了一些maf文件里的样本突变情况,发现不少样本只有一类突变类型,遂很疑惑:为什么一个样本里一个基因只有一种突变类型的记录。
得到建议:
一个样本在一个基因上最多只有一种突变类型的记录,这个结论应该是错的。
不过一个样本一个基因一般突变一个位点,也有极少数情况下会突变2个及以上的位点。
补充:
DNA变异检测完后经过过滤,基因突变并没有我之前想的那么多。
例如TCGA中突变负荷较高的膀胱癌平均只有302个外显子突变,而乳腺癌的情况大概是在100内,而且大部分癌症里突变类型最多的是Missense突变,所以看到“某个基因只有一种突变类型的记录” 也是正常的。
当然也有一个基因同时发生missense突变、nonsense突变、frameshit突变的情况,这种就归为 Multi-hit的了。
Q6-Q8: 关于GATK的问题
原始问题:
1. HaplotypeCaller这步时间非常久,一个样本耗时15~20hr,这个时间合理吗?
2. 用mutect2 call somatic时候,PoN是要用自己样本制作的还是可以用GATK提供的?
3. call variants的工具有很多,像bcftools,varscan2等,当初是认为GATK为金标准所以选了它,但现在发现它时间长且步骤繁琐,而其他工具就简单很多,所以还想问下经验:call variant 哪个工具是优选? 得到建议 hc耗时久是正常的,然后pon是自己的,人类数据以gatk为准
补充:
GATK时间的确很久,其中gemline variants calling里HaplotypeCaller 是耗时间大头,(somatic variants里用的mutect2也是)。但对GATK的时间优化也是可以发挥到极致的。 例如每年都会有天池风云挑战赛,选手竞相挑战最少时间跑完GATK(要求不超过30分钟),有靠GPU发力,有借助几百台云计算加持,有靠底层算法优化等等。当然是大量计算成本的投入换来的速度提升。商用的话可以考虑购买Sentieon DNASeq variant calling workflow。(非广告)
■ ■ ■
回顾完这8个问题,突然想起一句话:The more you know, the more you know you don't know.
一开始以为做个blast相似性比对就是生物信息,后来发现有全基因组/转录组组转,有DNA variant Calling,CNV、HiC、3D chromosome。
也是如此,发现精力有限无法各个地方都深究,加之之前看到Jimmy为了探究肿瘤克隆进化做了做么多准备,所以我得学着,挑个有意义的方向,消耗热情吧。